دسته بندی مجموعه داده های نامتوازن با استفاده از روش های یادگیری ماشین

پایان نامه
چکیده

یکی از مسائل مهم در زمینه داده کاوی، مسأله دسته بندی مجموعه داده های نامتوازن است. اصطلاح «مجموعه داده نامتوازن»، عموما به مجموعه داده ای گفته می شود که تعداد نمونه ها در کلاس های گوناگون، اختلاف بسیاری داشته باشند. در این نوع داده ها، به کلاس هایی که کم ترین تعداد نمونه ها را دارند، کلاس اقلیت گفته می شود. به دلیل این که اکثر الگوریتم های یادگیری، یک دسته بند را با فرض برابر بودن تعداد نمونه های آموزشی هر کلاس آموزش می دهند، بنابراین زمانی که این الگوریتم ها را به مجموعه داده های نامتوازن اعمال می کنیم، دسته بند آموزش داده شده، غالبا براساس نمونه های کلاس اکثریت آموزش می بیند. این موضوع به پیش‏ بینی بسیار ضعیف نمونه های کلاس های اقلیت منجر می شود، زیرا آموزش کلاس اقلیت به درستی انجام نشده است. در بسیاری از موارد، کاربران تمایل بیشتری به دسته بندی صحیح نمونه های کلاس های اقلیت دارند. در این پایان نامه هدف این است، روش هایی برای دسته بندی ارائه شوند که علاوه بر بهبود دسته بندی در داده های کلاس های اقلیت، قابلیت دسته بندی داده های کلاس های اکثریت نیز، در سطح قابل قبولی حفظ شود. درراستای دسته بندی صحیح نمونه ها، ابتدا یک روش انتخاب ویژگی مبتنی بر الگوریتم ریلیف - اف، برروی مجموعه داده ها اعمال و سپس سه الگوریتم ترکیبی بگینگ، آدابوست و جنگل تصادفی جهت دسته بندی داده ها، مورد استفاده قرار گرفته اند. به منظور آموزش دسته بندها، از روش های حساس به هزینه که این هزینه ها براساس الگوریتم رقابت استعماری تعیین شده اند، کمک گرفته شده است. روش پیشنهادی بهینه ی مبتنی بر الگوریتم ترکیبی بگینگ، کارایی میانگین 84.98 درصد، برروی 8 مجموعه داده نامتوازن تولید نموده است.

منابع مشابه

دسته بندی سبک های یادگیری با استفاده از ویژگی های رفتاری و ماشین بردار پشتیبان دو قلو

موفقیت تحصیلی دانشجویان از اهداف مهم در محیط‌های آموزشی است. یکی از عوامل مهم در تحقق این هدف، توجه به سبک یادگیری دانشجویان است. آگاهی از سبک یادگیری دانشجویان به طراحی یک روش مناسب آموزش کمک می‌کند. لحاظ کردن یک شیوه مناسب آموزش باعث بهبود عملکرد دانشجویان در محیط آموزشی می‌شود. در این مقاله، هدف ساخت یک مدل برای تشخیص خودکار سبک‌های یادگیری است. بدین منظور از یک محیط آموزش الکترونیکی متشکل ا...

متن کامل

بهبود کلاس بندی داده های نامتوازن با استفاده از الگوریتم های یادگیری ماشین

در دنیای امروز مسئله کلاس بندی داده های نا متوازن از اهمیت خاصی برخوردار است . کلاس بندی این داده ها به گونه ای است که ، کلاسی که از نظر دامنه کاربرد اهمیت زیادی دارد (کلاس اقلیت ) شامل تعداد حالات کمتری نسبت به کلاسی است که از اهمیت خاصی برخوردار نیست (کلاس اکثریت). به این مجموعه داده ها داده های نامتوازن می گویند. روش های مختلفی برای کلاس بندی این نوع داده ها ارائه شده است .در کلاس بندی این د...

درجه بندی خرمای رقم زاهدی بر اساس ویژگی های ظاهری با استفاده از روش های پردازش تصویر و یادگیری ماشین

خرما، یکی از محصولات باغی واستراتژیک در منطقه و ایران است. متاسفانه درآمد حاصل از صادرات این محصول پرارزش، نسبت به حجم صادرات بالای آن مطلوب نیست، بخشی از این امر به کیفیت پایین آماده‎سازی و بسته‎بندی محصول مربوط می‎شود. به نظر می‎رسد استفاده از فناوری­های نوین، مانند بینایی ماشین و پردازش تصویر، می‎تواند روند درجه­بندی و جداسازی  خرما را بهبود بخشد. در این پژوهش درجه­بندی میوه خرمای رقم زاهدی،...

متن کامل

رده بندی مجموعه داده های نامتوازن با استفاده از تکنیک های داده کاوی

یکی از چالش های علمی امروز رویارویی با مجموعه داده های نامتوازن است. در این مجموعه داده ها، یکی از کلاس ها تعداد نمونه های بسیار کمتری نسبت به سایرین دارد(کلاس حداقلی) و همچنین از اهمیت بیشتری برخوردار است. تعلق تعداد زیادی از نمونه ها به یک کلاس(کلاس حداکثری) روند رده بندی با روش های معمول رده بندی را با مشکل مواجه می-کند. روش های معمول رده بندی، داده ها را به کلاس حداکثری منتسب می کنند از این...

15 صفحه اول

پیش پردازش و دسته بندی سیگنال های مغزی با استفاده از روش های یادگیری ماشین

مغز به عنوان پیچیده ترین عضو بدن و ویژگی رهبری کننده آن از دیرباز مورد توجه بسیاری از محققین بوده است. امروزه واسط مغز-کامپیوتر، عنوان کلی از روش هایی است که به منظور برقراری ارتباط مغز با دنیای اطرافش پیشنهاد شده اند. لذا اگر سیستمی بتواند سیگنال های ثبت شده از تعدادی فعالیت ذهنی را از یکدیگر تفکیک کند، آن فعالیت ها یک الفبای ساده را تشکیل می دهند، که فرد می تواند با انجام ترکیب های مختلفی از ...

15 صفحه اول

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شهید چمران اهواز - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023